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基于 CNN 和 LSTM 混合 模型 的 人 体 跌倒 行为 研究 ， 
库 癌 阳 ， 苏 学 威 


(西安 科技 大 学 计算 机 科学 与 技术 学 院 ,西安 710054) 


摘 要 : 视频 监控 中 人 体 跌 倒 行 为 识别 对 于 提升 老年 人 护理 质量 ， 减 少 社会 养老 负担 等 方面 有 十 分 重要 意义 。 传 统 模 

式 识 别 方法 依赖 于 人 工 选取 的 特征 ， 智 能 化 程度 识别 精度 不 高 。 深 度 学 习 模 型 泛 化 能 力 强 ， 特 征 提取 自动 完成 。 

但 目前 深度 学 习 模 型 不 能 较 好 的 把 监控 视频 i 行为 的 空间 和 时 序 特 征 有 效 结合 起 来 。 为 此 ， 提 出 基于 

CNN(convolutional neural network) 和 LSTM(long-short term memory) 混 合 模型 的 人 体 跌 倒 行 为 识别 方法 。 该 模型 采用 两 
结构 ， 将 视频 以 每 5 帧 为 一 组 输入 到 网 络 中 ，CNN 提取 视频 序列 的 空间 特征 ，LSTM 提取 视频 时 间 维 度 上 的 特征 ， 

最 后 使 用 softmax 分 类 器 进行 识别 。 实 验 表 明 ， 该 方法 可 以 有 效 提高 跌倒 识别 的 准确 率 。 
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Research on human fall behavior using CNN and LSTM-based hybrid model 


She Xiangyang, Su Xueweil 
(College of Computer Science & Technology, Xi'an University of Science & Technology, Xi an 710054, China) 


Abstract: The detection of human fall behavior in video surveillance is of great significance for improving the quality of care 
for the elderly and reducing the burden of social pension. The traditional pattern recognition method relies on the 
characteristics of the manual selection, the degree of intelligence is low, and the recognition accuracy is not high. Deep 
learning model has strong generalization ability and can extract the feature automatically. However, the above models cannot 
effectively combine the Spatial and temporal characteristics of the fall behavior in surveillance videos. To this end, This paper 
proposed a method which combinates CNN and LSTM (long-short term memory) models for the study of human fall behavior. 
The model adopted a two-layer structure and put the video into the network every 5 frames. The CNN extracted the spatial 
features of the video sequence. The LSTM extracted the features of the video in the time dimension. Finally, the softmax 
classifier obtained the classification result. Experiments show that this method can effectively improve the accuracy of fall 
recognition. 


Key words: falling behavior recognition; convolutional neural network; long-short term memory; time dimension 
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， 采 用 SVM 分 类 器 检测 跌倒 行为 。 以 上 方法 
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0 引言 的 识别 率 依赖 事先 人 工 提取 的 特征 ， 一 旦 提取 的 特征 不 理想 ， 
随 着 社会 人 口 老龄 化 的 发 展 ， 因 为 跌倒 导致 老人 意外 受伤 跌倒 行为 识别 的 效果 就 会 受到 较 大 影响 。 
或 死亡 的 情况 时 有 发 生 。 准 确 高 效 地 识别 出 监控 视频 中 跌倒 行 b) 深 度 学 习 模 型 通过 对 数据 多 层 建 模 获 得 视频 数据 的 特征 
为 对 于 老年 人 的 安全 防护 具有 重要 的 现实 意义 帆 。 许 多 学 者 在 表示 , 避免 了 了 人工 提取 特征 的 繁琐 , 而 且 良好 的 泛 化 能 力 
视频 中 跌倒 行为 识别 方面 做 了 大 量 研究 ,提出 了 一 些 识别 方法 。 文献 向 提出 一 种 基于 CNN 深度 学 习 人 体 行 为 识别 方法 , 该 方法 
主要 有 两 种 : 基于 浅 层 传统 模式 识别 方法 和 基于 深度 学 习 的 分 卷 积 神经 网 络 进行 局 部 特征 分 析 , 得 到 特征 输出 项 进行 分 类 
类 模型 。 但 是 该 方法 仅仅 得 到 了 局 部 空间 特征 ， 丢 失 了 时 域 特征 。 文 献 
a) 在 浅 层 传统 模式 识别 方面 ， 文 献 中 人工 提取 人 体 轮廓 儿 5 中 提 到 一 种 基于 LSTM 深度 学 习 人 体 行为 识别 方法 ， 对 时 间 
接 和 矩形 的 宽 高 比 、 人 体 Hu 珑 特征 、 人 体 轮 廊 离 心率 、 人 体外 序列 进行 建 模 ， 对 人 体 行为 进行 训练 和 识别 。 但 该 方法 的 不 足 
线 角 等 多 特征 进行 融合 , 采用 SVM 检测 跌倒 行为 。 文 献 包 提取 ”之 处 在 于 其 仅仅 提取 了 视频 数据 的 时 序 特征 ， 而 丢失 了 局 部 空 
对 跌倒 行为 敏感 的 时 域 及 频 域 特征 ， 利 用 奇异 值 分 解 方 法 降 维 间 特 征 。 
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为 了 更 好 地 获取 视频 数据 空间 和 时 序 特征 ， 一 些 专 家 学 者 
将 CNN 和 LSTM 结合 起 来 ， 并 成 功 应 用 于 视频 分 类 和 视频 描 
述 方面 。NgI9 等 将 图 像 数据 和 光 流 数据 分 别 通过 CNN, 获取 视 
频 帧 序列 的 空间 信息 ， 然 后 将 CNN 输出 传 入 LSTM， 以 挖掘 
它们 之 间 的 时 序 信 息 , 最 后 通过 softmax 对 视频 类 别 进行 预测 。 
Venugopalan 等 人 [7 将 短视 频 抽样 为 16 帧 图 像 序列 并 以 此 来 代 
表 整 部 视频 ， 由 CNN 来 提取 特征 ， 然 后 将 此 16 帧 特征 做 均值 
池 化 得 到 视频 编码 特征 ， 然 后 利用 LSTM 解码 生成 视频 描述 信 


自 
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在 前 人 研究 的 基础 上 ， 我 们 提出 基于 CNN 和 LSTM 的 混 
合 模 型 来 对 跌倒 行为 进行 识别 的 方法 ， 对 视频 数据 集 进行 简单 
处 理 后 , 混合 模型 利用 CNN 滑动 窗口 和 权 值 共享 外来 获得 视频 
序列 的 局 部 空间 特征 并 作为 下 一 层 的 输入 , 利用 LSTM 的 时 序 
性 获取 视频 数据 的 时 间 特 征 ， 将 两 者 结合 起 来 ， 充 分 利用 了 两 
者 各 自 的 优势 。 另 外 ， 由 于 深度 学 习 可 以 自动 提取 行为 特征 ， 
避免 了 人 工 提取 特征 的 过 程 。 跌 倒 行为 识别 的 正确 率 得 到 了 显 
著 的 提升 。 


1 ”相关 理论 与 方法 


1.1 卷 积 神经 网 络 

CNN 是 一 种 深度 学 习 网 络 , 最 早 由 Fukushima 中 在 1980 年 
提出 。 通 常 由 输入 层 、 卷 积 层 、 池 化 层 、 全 连接 层 、 输 出 层 构 
成 。 卷 积 神经 网 络 基本 结构 如 图 1 。 
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图 1 卷 积 神经 网 络 结构 图 
引 输 入 层 。 输 入 层 是 整个 网 络 的 开始 ， 在 图 像 处 理 领 域 ， 
卷 积 神经 网 络 的 输入 通常 为 一 张 图 像 X 的 像素 矩阵 。 
b) 卷 积 层 。 卷 积 层 是 CNN 中 最 重要 的 一 部 分 。 根据 对 生物 
视觉 细胞 局 部 感受 野 的 理解 ， 卷 积 层 中 每 一 个 节点 的 输入 只 是 
上 一 层 神 经 网 络 的 一 小 块 ， 卷 积 层 将 每 一 小 块 进行 更 加 深入 的 
分 析 从 而 得 到 更 加 抽象 的 特征 。 卷 积 有 三 种 形式 ,分别 是 full、 
same、valid。 以 Hi 表示 卷 积 神经 网 络 第 i 层 的 特征 图 ( Ho=X )。 
假设 H; 是 卷 积 层 ， Hi 的 具体 产生 过 程 为 091; 
H,=f(H,, ®W.+b,) (1) 
其 中 : W 表 示 第 i 层 卷 积 核 的 权 值 向 量 ，@ 表示 卷 积 核 与 
第 i-1 层 图 像 或 特征 图 进行 卷 积 操作 ， 7(.) 表示 激活 函数 ， 以 
卷 积 的 输出 与 第 i 层 的 偏 移 量 5 代数 和 作为 自 变 量 ， 通 过 激活 
函数 fo 得 到 第 i 层 的 特征 图 Hi 。 常 见 的 激活 函数 有 relu、 


sigmoid 、tanh 等 。 
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X1) + (1X0) + (0X0) + (-1X1) +1=-1<0。 
本 例 使 用 relu 为 激活 函数 ，relu 公式 为 : 
28(X) = max (0, x) (2) 
根据 公式 (2)， 最 终 取 值 为 0。 
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妈 2 ” 卷 积 层 计算 过 程 样 例 图 


0O) 池 化 层 。 在 卷 积 层 与 卷 积 层 之 间 往 往 会 加 上 一 个 池 化 层 
(pooling layer)， 池 化 层 可 以 非常 有 效 的 缩小 矩阵 尺寸 ， 从 而 
减少 最 后 全 连接 层 中 节点 的 个 数 ， 最 终 达 到 减少 整个 神经 网 络 
中 参数 的 目的 。 使 用 池 化 层 既 可 以 加 快 计算 速度 也 可 以 防止 过 
拟 合 的 问题 。 其 中 常见 的 两 种 池 化 分 别 为 最 大 值 池 化 
Cmax-pooling) 和 平均 值 池 化 〈average-pooling )。 
将 图 2 的 卷 积 结果 分 别 进行 两 种 池 化 操作 ， 池 化 结果 用 R 
表示 ， 有 具体 过 程 如 图 3 所 示 。 
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图 3 池 化 操作 样 例 图 
d) 全 连接 层 。 在 卷 积 神经 网 络 的 最 后 一 般 会 由 1 到 2 个 全 
连接 层 来 给 出 最 后 的 分 类 结果 。 经 过 几 层 的 卷 积 层 和 池 化 层 的 
处 理 之 后 ,图 像 中 的 信息 已 经 被 抽象 成 了 信息 含量 更 高 的 特征 。 
我 们 可 以 将 卷 积 层 和 池 化 层 看 成 自动 提取 图 像 特征 的 过 程 ， 在 
特征 提取 完成 以 后 ， 仍 需要 使 用 全 连接 层 来 完成 分 类 的 任务 。 
e) 输 出 层 。 
常用 的 输出 层 为 softmax 层 ， 主 要 用 于 分 类 问题 。 通 过 
softmax 层 可 以 得 到 当前 样 例 属 于 不 同 种 类 的 概率 分 布 情况 。 给 
定 输入 x 属于 第 i 类 的 一 种 原始 度量 Kx y) ,softmax 公式 如 下 : 


PO=il) = 
了 二 下 二 有 
CC 有 (3) 


| 
其 中 : Ply=i[ 表示 给 定 输入 属于 第 ;类 的 概率 。 
1.2 长 短期 记忆 网 络 

长 短期 记忆 网 络 (Long Short-Term Memory，LSTM ) 是 一 
种 特殊 的 循环 神经 网 络 (RNN)。 是 为 了 克服 RNN 网 络 不 能 处 理 
远 距离 依赖 的 问题 而 提出 的 。 RNN 中 同 层 隐藏 层 节 点 之 间 
定 的 关联 ， 即 当 序 列 图 片 依次 输入 网 络 ， 隐 藏 层 节点 的 计算 不 


图 2 以 same 卷 积 方式 为 例 展示 了 卷 积 层 的 计算 过 程 ， 
中 红色 框 中 为 原始 矩阵 。 卷 积 运算 过 程 是 计算 两 个 相同 位 置 元 
素 的 乘积 之 和 ， 图 中 灰色 部 分 计算 过 程 如 下 : 

(1X0) +〈0X0) + (-1X0) + (1X0) + (OX1) +《〈-1 


只 依赖 于 当前 输入 层 的 输入 ， 也 依赖 于 上 一 时 刻 隐 藏 层 各 节点 
的 激活 值 。 对 于 输入 序列 X= (04, 加 ,…%) ，RNN 网 络 层 将 得 到 
隐藏 层 序 列 h= 0, 名 ,…h) 和 输出 序列 y= (31,»…,》) ， 计 算 方 
法 如 下 
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h=H(W,xX 
Yi 
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层 所 | 


其 中 : 已 表示 隐藏 
层 的 权重 矩阵 
隐藏 层 到 输出 层 的 权重 矩阵 
的 偏向 量 。 


导致 RNN 不 能 发 现 序列 中 时 间 间 隔 较 长 的 帧 之 间 和 有 
RNN 没有 存储 单元 来 存储 和 输 


的 原因 是 : 


的 激活 函 
Wi 表示 隐藏 层 到 隐藏 层 的 权重 和 矩阵; W 
b, 和 b, 分 别 表示 隐藏 层 和 输出 


的 RNN, LSTM 架构 503 使 用 存 人 


对 较 长 时 间 前 的 输入 有 了 记忆 能 力 。 


LSTM 包括 新 输入 、 
出 门 0。 输 入 门 i 根 据 太 、 


Ci 
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,、 输 入 门 半 、 遗 
h, 决定 哪些 部 分 将 进入 当前 时 


+ Wh + b;) 
万 二 Do 
数 ; 


Wy, 表示 输入 层 


ho 表示 


(4) 
(5) 


上 册 住 
[unl 信 息 o 


诸 单 元 来 存储 和 输出 信 


[uml 信 息 9 


态 门 用、 
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的 关系 


不 同 于 标准 


从 而 
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刻 的 状态 6 进行 更 新 。 遗 忘 门 决定 哪些 信息 被 丢弃 。 


忘 门 和 输入 门 ，LSTM 乡 


吉 构 可 以 更 加 有 效 的 决定 哪些 


被 遗忘， 哪些 信息 


应 该 得 到 保留 。 


体 结构 如 


图 4。 


图 4 LSTM 结构 图 


Ar 吕 


“信息 4 人 该 


图 4 中 符号 @ 表 示 向 量 元 素 乘 ; 符号 @ 表 示 疝 量 拼 接 ; 符 
号 四 表示 向 量 和 。LSTM 各 组 成 部 分 做 如 下 更 新 4 15; 

i=o(Wx +U,h, +b) (0) 
f=oWyXh t+Uih +by) (7) 
G=tanh(W +U,h +b.) (8) 
c=fOc ,+iO6 (9) 
oO =G(WY +U +b,) (10) 
h =0, tanh(c,) (11) 

其 中 : 0 表示 sigmoid 激活 函数 ; 表示 向 量 元 素 乘 ; 
Wj、Wy、We、W 分 别 表示 输入 层 到 输入 门 、 遗 忘 门 、 存 储 单 
元 cell 和 输出 a nh Uj Uw、Ui、Uiw 分 别 表示 
隐藏 层 到 输入 门 、 遗 筷 门 、 存 储 单元 cell 和 输出 门 之 间 的 权重 


矩阵 ; 全 br: 


和 输出 门 的 偏 置 值 ，i 、f、0o 
输出 门 和 存储 单元 。 


跌倒 


基本 思想 

将 视频 数据 经 过 
和 测试 数据 集 。 
数据 用 于 检验 模型 的 性 能 。 
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2.1 


0、 b, we 入 门 、 遗 


、5 分 别 表示 输入 门 、 


了 为 识 4 别 的 混合 深 


寸 预 处 理 所 得 


度 神经 网 络 模型 


序列 图 片 随机 分 为 训 
训练 数据 用 于 模型 的 构建 和 参数 的 调 
利用 CNN 网 络 提取 各 | 


征 ， 然 后 将 CNN 网 络 的 输出 调 


整 规模 依次 输入 到 
来 获取 序列 时 序 特征 ， 并 计算 各 个 时 刻 LSTM 输出 的 平均 


练 数据 外 


整 ， 


忘 门 以 及 存储 单元 cell 


遗忘 


门 、 


uy 


测试 


上 质 的 空间 特 
LSTM 网 络 


值 ， 
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预测 最 后 的 分 类 结果 。 混 合 模型 基本 结构 如 


图 5 混合 模型 结构 
混合 深度 神经 网 络 模型 
2.2.1 卷 积 神经 网 络 处 理 层 


2.2 


模型 使 用 卷 积 神经 网 络 来 提取 视频 帧 的 空 
为 的 表示 特征 。 
令 N 表示 输入 网 络 的 图 像 序列 的 帧 数 。 对 于 单 张 图 像 ， 像 
素 矩 阵 的 大 小 为 PxC ， 采 用 same 方式 卷 积 ， 令 卷 积 核 大 小 为 


间 信 息 ， 生 成 行 


kxk , 需要 在 原始 图 像 算 阵 的 外 围 加 上 长 度 为 饮 的 零 填充 为 


(P+2 1 )x(Q+2 把 ) 大 小 的 像素 矩阵 ， 其 中 : 


表示 向 下 取 


整 符号 


号 。 令 性 表 示 扩 充 后 像素 矩阵 中 心力 处 像素 值 。 则 落 入 第 


(CC-D+ 万 个 G<P+2 0 ,j<O+2 4 区 ) 滑 动 窗口 的 所 有 像素 


ViCjH-l) 
YGHE-DCUHED 


结合 公式 〈1) 进行 卷 和 


值 可 以 表示 为 窗口 矩阵 ， 如 下 所 示 : 


Vy 有 要 
Xi 二 : 
Virp-Dj 


对 于 每 个 窗口 矩阵 ， 


窗口 特征 
万) = fx, OW +D) (13) 
在 卷 积 运 算 过 程 中 ， 鉴 于 relu 收敛 速度 快 的 特性 ，f 采用 
如 下 relu 激活 函数 : 
g(x) = max (0, xX) (14) 
在 完成 卷 积 之 后 进行 池 化 操作 。 选 择 最 大 池 化 来 进行 处 理 。 
获得 每 一 个 窗口 矩阵 的 最 大 特征 值 。 
及 = Max(Y;) (15) 
其 中 : R， 表 示 序 列 图 像 中 第 n 张 图 像 经 过 卷 积 和 池 化 操 
作 以 后 的 特征 矩阵 。 


分 别 对 序列 图 像 进行 以 上 操作 ， 则 对 于 序列 中 各 个 图 像 帧 


的 特征 矩阵 可 用 R= CR,R 有 R) 表示 ， 其 中 n<N。 
2.2.2 长 短期 记忆 模型 处 理 层 
CNN 层 的 一 个 输出 R 对 应 一 个 时 刻 t 的 LSTM 输入 。 某 时 
刻 t， 根 据 公 式 (6) ~ (11)，LSTM 单元 各 组 成 部 分 做 如 下 更 
新 : 
i =o(W,R, +U,h i +b) (16) 
f=oW,R +U,h +b,) (17) 
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其 中 : 
阵 ; 
储 单元 cell 


Ws Wj、 


c= tanh(W,R, +U,.h +b.) 


C=fOc1+ti 
0,=o(W,,R, +U,, 


h =0, tanh(c,) 
0 表示 sigmoid 激活 函数 ;RR 表示 Rs 
We、Wi 分 别 表示 输入 层 到 输入 门 、 
和 和 输出 门 之 间 的 权重 矩阵 ; 


(18) 
O06 (19) 
hi+b,) (20) 
(21) 


态 门 、 存 


CU Uw、 Ur、 Uiw 分 别 


表示 隐藏 层 到 输入 门 、 遗 忘 门 、 存 储 单元 cell 和 输出 门 之 间 的 


权重 矩阵 ; 
元 cell 和 输 


b; 、 bj 
出 门 的 偏 置 值 。 
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3.1 
论文 使 
中 国 科学 院 


数据 集 与 测试 环境 


用 CASIA 数据 集 09 作 为 
自动 化 研究 所 提供 。 所 有 


和、 和 斜 角 和 
率 为 25fps， 
为 选取 的 原 


利用 基 
进行 实验 。 


路 
A 


俯 角 的 三 个 未 标定 的 静止 
采用 huffyuv 编码 压缩 ， 
始 视频 帧 。 


倒 跌倒 行 
/4 A 


b. 、b, 分 别 表 示 输 入 门 、 遗 忘 门 、 存 储 单 


测试 数据 ， 该 数据 集 是 由 
视频 都 是 由 分 布 在 水 平视 
的 摄像 机 同时 拍摄 的 ， 
分 辨 率 为 320*240。 图 


漂 


CN 


图 6 视频 帧 序列 


于 Python 的 深度 学 习 库 Keras 在 GPU 加 速 环境 下 
具体 实验 环境 如 表 1 所 示 。 


表 1 实验 环境 配置 


配置 


操作 系统 


百 
程序 框架 


Ubuntu14.04 


NVIDIA Tian XP 


64GB\4.2TB 
Python3.6 


Keras 


3.2 实验 方案 与 参数 设置 
oe CASIA 数据 集中 俯视 角 下 身 


晕 倒 、 


腰 走 、 人 


处 理 后 获得 


中 随机 选择 80% 作 为 训练 数据 集 ，20% 作 为 测试 数据 集 。 
始 数据 为 彩色 图 像 序 列 , 色彩 通道 


原 


、 跑 、 走 作为 实验 数据 。 民 


跳 、 跑 、 走 作为 正常 数 
跌倒 序列 图 片 955 张 ， 非 


人 行为 的 弯 腰 走 、 下 蹲 、 
ed ori 弯 
据 集 。 经 过 对 视频 数据 预 
于 全 过 天 图片 840 张 。 其 


存在 不 稳定 特性 ， 


过 


奋 向 阳 ， 
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所 以 将 原始 图 像 进 行 预 处 理 ， 


简单 缩放 归 一 化 至 


转化 为 单 通道 图 像 ， 


将 像素 值 


j[0,1] 区 间 ， 用 于 最 终 的 实验 数据 。 
为 了 获取 实验 输入 序列 最 佳 帧 数 并 验证 


混合 模型 的 有 效 


性 ， 本 文采 上 


县. 
里 ， 


] 在 相同 的 实验 环境 下 ， 相 同 数据 集 以 及 相同 数据 
分 别 做 如 下 两 组 对 比试 验 : 


a) 分 别 采取 序列 帧 数 为 3、4、5、6、7 输入 混合 模型 进行 


头 拉 。 


b) 对 SVM、CNNOJ、LSTM0I 以 及 本 文采 月 


行 跌倒 检测 的 对 比 实验 。 


深度 学 习 模 型 


函数 (选取 : relu，tanh) 进行 实验 取 优 ， 其 余 参 


E 要 涉及 的 参数 有 : 滑动 窗 


口 大 小 、 


的 混合 模型 进 


卷 积 核 


LSTM 节点 数 、 优 化 方法 以 及 学 习 率 。 选 择优 
化 方法 (选取 : Adam、SGD、RMSprop)、 学 习 率 ( 取 值 : 0.0001， 
0.001，0.01，0.1)，LSTM 节点 数 〈 选 取 : 32,64,128) 和 激活 


其 中 损失 函数 采 / 
中 参数 分 别 设置 如 表 2 所 示 ， 模 型 性 


交叉 损 失 函 数 ， 


表 2 参数 设置 


通过 实验 对 比 可 知 ， 模 型 
能 达到 最 佳 。 


数 为 默认 值 ， 


参数 名 称 参数 
学 习 率 0.0001 
优化 函数 SGD 
激活 函数 relu 
损失 函数 categorical_crossentropy 
LSTM 节点 数 64 
3.3 实验 结果 及 分 析 
通过 对 不 同 序列 帧 数 进行 对 比 实验 ， 结 果 如 图 7 所 示 。 
0 曙 准确 率 
90 ] 
人 801 
话 
是 70 ] 
60 1 
50 T T T 1 
3 4 6 7 
序列 数 


图 7 不 同 帧 数 实验 对 比 结果 


图 7 所 知 ， 当 序列 数 为 5 时 实验 效果 达到 最 佳 ， 这 可 能 


是 由 于 序列 帧 数 太 小 会 丢失 部 分 跌倒 的 行为 信息 ， 不 能 很 好 的 
表示 中 到 行为 ， 而 序列 帧 数 过 大 则 导致 总 体 训练 样本 数 变 小 ， 
不 能 很 好 的 训练 模型 。 所 以 实验 采用 每 5 帧 为 一 个 序列 进行 实 
验 , 并 用 准确 率 对 模型 进行 评价 , 准确 率 实验 结果 如 表 3 所 示 。 
表 3 各 个 模型 识别 准确 率 
模型 准确 率 
SVM 82.17% 
CNN 83.84% 
LSTM 91.67% 
CNN+LSTM 94.44% 


另外 ,对 深度 学 习 模 型 在 GPU 加 速 环境 下 训练 时 间 也 进行 


八 MM 全 
E 


| 年 其 十 | 
跌倒 行为 研究 


录用 定 入 奋 向 阳 ， 等 : 基于 CNN 和 LSTM 混合 模型 的 人 休 


了 对 比 实验 ， 结 果 如 图 8 所 示 。 


0 加 时 间 
140 :| 
120 1 
_ 100 ] 
= 80 :| 
辐 60 ] 
40 :| 
20 :| 
0 1 
CNN LSTM CNN+LST™M 
模型 
图 8 各 模型 训练 时 间 对 比 
从 表 3 可 以 看 出 ,对 CASIA 数据 库 进 行 跌倒 检测 的 准确 率 
按 由 高 到 低 的 顺序 依次 为 : CNN+LSTM、 LSTM、 CNN、 SVM， 


CNN+LSTM 混合 模型 的 准确 率 要 高 于 其 它 三 种 模型 ， 这 得 益 
于 混合 模型 既 有 效 利 用 了 CNN 通过 卷 积 获取 局 部 空间 特征 ， 
又 结合 了 LSTM 的 时 序 性 来 获得 视频 序列 的 时 间 特 征 。 另 外 ， 
通过 深度 学 习 的 方法 也 避免 了 繁杂 的 人 工 提取 特征 ， 泛 化 能 力 
更 强 。 但 同时 由 图 8 可 知 ,在 模型 的 训练 时 间 上 ，CNN 和 LSTM 
混合 模型 由 于 复杂 的 网 络 结构 , 其 耗 时 分 别 高 于 CNN 和 LSTM 
的 耗 时 ， 而 LSTM 耗 时 高 于 CNN 是 因 其 带 有 记忆 功能 ， 网 络 
结构 更 为 复杂 。 
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论文 提出 了 基于 CNN 和 LSTM 混合 模型 来 检测 跌倒 行为 ， 
在 CASIA 数据 集 上 的 识别 率 达 到 了 94.44%。 相 比较 浅 层 传统 
模式 识别 方法 避免 了 人 工 提取 特征 ， 增 强 了 模型 的 泛 化 能 力 ; 
对 于 深层 CNN 和 LSTM 网 络 不 但 能 够 提取 到 序列 视频 帧 的 空 
间 特 征 ， 也 能 提取 到 帧 与 帧 之 间 的 时 序 性 信息 ， 识 别 率 提 升 明 
显 ， 具 有 一 定 的 可 靠 性 。 由 于 实验 中 采用 的 数据 集 背 景 固定 
一 ， 且 都 为 单 人 行为 ， 与 实际 情况 还 有 偏差 。 未 来 应 对 更 加 接 
近 于 实际 场景 中 的 跌倒 行为 进行 深入 的 研究 和 分 析 。 
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